info

Googles Projekt Astra, Veo och Gemini: AI-framsteg i Uppgraderingskampen

Detta är Googles svar på OpenAI.

En generell AI, en AI som verkligen kan användas dagligen, det skulle vara pinsamt att hålla en presskonferens om det inte är så här nu.

Tidigt på morgonen den 15 maj inleddes den årliga "Vårfestivalgalan för teknikvärlden" Google I/O Utvecklarkonferens officiellt. Hur många gånger nämndes artificiell intelligens under den 110 minuter långa huvudkeynoten? Google har räknat ihop det:

Ja, AI pratas om varje minut.

Tävlingen om generativ AI har nyligen nått en ny höjdpunkt, och innehållet i denna I/O-konferens kretsar naturligt kring artificiell intelligens.

"För ett år sedan på denna scen delade vi först våra planer för den inhemska multimodala stora modellen, Gemini. Det markerade den nya generationen av I/O," sade Googles VD Sundar Pichai. "Idag hoppas vi att alla kan dra nytta av Geminis teknik. Dessa banbrytande funktioner kommer att tränga in i sökning, bilder, produktivitetsverktyg, Android-system och många andra aspekter."

För närvarande är både 1.5 Pro och 1.5 Flash tillgängliga för offentlig förhandsgranskning och erbjuder ett kontextfönster på 1 miljon tokens i Google AI Studio och Vertex AI. Nu erbjuder 1.5 Pro också ett kontextfönster på 2 miljoner tokens för utvecklare som använder API och Google Cloud-kunder via en väntelista.

Dessutom har Gemini Nano utvidgats från ren textinmatning till bildinmatning. Senare i år, med start från Pixel, kommer Google att lansera multimodal Gemini Nano. Detta innebär att mobila användare inte bara kan bearbeta textinmatning utan också förstå mer kontextuell information, såsom visuella bilder, ljud och talat språk.

Gemini-familjen välkomnar ett nytt medlem: Gemini 1.5 Flash

Den nya 1.5 Flash har optimerats för hastighet och effektivitet.

Ny generation av öppen källkod stor modell Gemma 2

Idag släppte Google också en serie uppdateringar till den öppna källkodsmodellen Gemma – Gemma 2 är här.

Som introducerat använder Gemma 2 en ny arkitektur som syftar till att uppnå banbrytande prestanda och effektivitet, de nya öppna källkodsmodulparametrarna är 27B.

När det gäller långa videor kan Veo producera videor på 60 sekunder eller längre. Detta kan göras genom en enda prompt eller genom att ge en serie av prompts som tillsammans berättar en historia. Detta är avgörande för tillämpningen av videogenereringsmodeller inom film- och TV-produktion.

Veo baseras på Googles arbete med visuell innehållsgenerering, inklusive Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere och andra.